Skip to content

集中量数与差异量数

标签
学习/心理学
字数
2144 字
阅读时间
9 分钟

本章概览

  • 集中量数:分布的中间位置的情况,也叫集中趋势,用来估计和预测总体的情况。
  • 差异量数:描述数据分布的变异性,是对分布的延伸和聚集状态程度的定量化描述,用来衡量估计和预测的误差大小。

学习要点

  1. 学会计算均值,中数和众数;
  2. 学会计算标准差,四分位距和全距;
  3. 对于给定的分数分布,学会选用适宜的集中量数和差异量数。

集中量数

算术平均数、中数、众数

算术平均数 (mean) 是最常用的,也是最容易理解的一个集中量数指标,计算公式为:

X=i=1nf1Xii=1nfi

考虑集中量数时,作为首选的集中量数,相比中数和众数,算数平均数的反应最灵敏最客观最具代表性。此外,算数平均数还可以进行代数运算,比如,每个观测量都加上一个常数时,算数平均数也会加上一个相同的常数;而每个观测量都乘上一个常数时,算数平均数也会乘上一个相同的常数。

不过,如果数据中存在极端值,那么算数平均数的代表性会受到一定影响。

中数 (median) 又被称为中位数,它将我们所研究的数据分为数目相等的两半,其中一半的值比它小,而另一半的值比它大。

如果数列的总个数n奇数,且最中间的值与相邻的值都不相等,那么最中间的,也就是第 (n+1)/2 个数就是这 n 个数的中数。如果 n偶数,按照惯例,可以取位于中间的两个数(第 n/2 个数和第 n/2+1 个数)的平均数作为中数。如果排列好后的数列分布的中间有相等的数,原则上将重复的数字看作一个连续体,利用中间数据的精确上下限进行插值法。

中数只和位置有关,所以对数据变动的反应不够灵敏,不过这恰好使它不易受到极端值的影响。而且中数也不能进行代数运算。

众数 (mode) 是指出现次数最多的那个数或类目,用 M0 来表示。众数可能有不止一个。

众数也不易受极端值的影响,但是代表性比中数还差,也不可以进行代数运算,因而应用较少。

分布的形状与集中量数

如果将大量数据画成光滑的次数分布曲线,则可以认为:

  • 算术平均数是数据分布的重心或平衡点
  • 中数正好把分布分成相等的两半
  • 分布的最高点对应众数

正偏态分布中,算术平均数>中数>众数;负偏态分布中,算术平均数<中数<众数;分布对称时,三个值重合。

集中量数的比较

算数平均数

优点:

  • 在计算算数平均数时将所有的数值都纳入了考虑范围,反应了分布的变异;
  • 算数平均数可以进行代数运算;
  • 算数平均数是三种集中量数中最灵敏、最客观且最具有代表性的。

缺点:

  • 算数平均数的代表性会受到极端数值的影响。

中数

优点:

  • 中数只和数据所处的位置有关,因此它不受极端数值的影响。

缺点:

  • 由于只和位置有关,因此中数对数据变动的反应不够灵敏;
  • 中数不能进行代数运算。

众数

优点:

  • 众数相对来说比较直观,容易理解;
  • 众数不受极端值影响;
  • 在命名型的数据中,一般来说只能用众数。

缺点:

  • 反应不够灵敏,代表性差于中数;
  • 不能进行代数运算;
  • 要求数据分布有明显中心。

差异量数

全距、标准差、四分位距

全距 (range)

  • 定义:指分布分数最大值 X 的精确上限和分布分数最小值X的精确下限的差值,用符号 R 表示,又叫极差
  • 例子:若X是离散型,R=105=5;若X是连续型,R=10.54.5=6
  • 如果分数是连续型,必须用精确上下限;全距的代表性较差,只依据两个极端值。

标准差 (standard deviation)

  • 定义:描述了分布中每一个个体与某一标准偏移的距离,这个标准就是均值
  • 是最重要最常用的差异量数;包含所有的信息,代表性强。
  1. 离差 (Dispersion)

    • 定义:某数据点到均值的距离,离差=Xμ
    • 离差由正负符号和数值组成,如果分数的值大于均值,离差是正数;如果分数的值小于均值,离差是负数;任何一个分布中所有个体的离差值之和必然为零。
  2. 和方 (Sum of squares)

    • 定义:SS=(Xμ)2=X2(X)2/N
    • 解决了正负符号的问题
  3. 总体的方差和标准差

    • 定义:总体的方差是和方除以总体的容量,也被称为均方,总体方差 σ2=SS/N;总体的标准差是总体方差的平方根,总体标准差 σ=SS/N
  4. 样本的方差和标准差

    • 样本方差的分母是 n1,即S2=SS/(n1),标准差 S=SS/(n1)
    • n1 作分母是用自由度来校正样本离差,以利于对总体参数的无偏差估计
  5. 标准差

    • 拇指原则:对于对称分布,均值常常在分布的中点,标准差常常在全距的1/4左右
    • 对分布中每一个分数加上一个常数不会改变其标准差
    • 对分布中每一个分数乘上一个常数,所得分布的标准差是原分布的标准差乘上这个常数

四分位距 (interquartile range)

  • 定义:数据中间50%数据的全距,IQR=Q3Q1

  • Q1是第一四分位数或者下四分位数,即比Q1小的数据占数据总数的25%;Q3是第三四分位数或者上四分位数,即比Q3小的数据占数据总数的75%,四分位距就是指25%和75%之间的距离。

  • 半四分位距又叫四分差,是四分位距的一半,即SIQR=(Q3Q1)/2

  • 四分位距不易受极端分数的影响,适用于有不确定值的数据,常常使用在用中数作为集中量数的情况下。

差异量数的比较

  1. 极端分数:全距受影响最大,四分位距受影响最小。
  2. 样本大小:全距可能随n增加而增加,四分位距和标准差不会。
  3. 样本选取:同一总体多次选取不同样本,全距没有稳定的值,但四分位距和标准差是稳定的。
  4. 当存在不确定值的分布时,全距和标准差无法求得,四分位距可求。
优点缺点
全距1. 计算便捷1. 样本稳定性差
2. 受极端数值的影响
3. 可能与样本量有关
四分差1. 不易受极端分数的影响
2. 适用于有不确定值的数据
1. 在一定程度上样本稳定性差
标准差1. 样本稳定性好
2. 包含最多的信息
1. 受极端数值的影响

贡献者

页面历史

撰写